法律大语言模型因其超级学习和“涌现”能力,在法律任务中表现出卓越的性能,引发了法律科技领域的新一轮革命。法律大语言模型的司法应用主要体现在法律语言理解、法律知识问答、法律预测和法律文本生成等领域。然而,随着其在审判等司法实践中的应用,暴露出可解释性弱和“幻觉”等问题。法律大语言模型仍然难以胜任法律人的核心工作,包括法律推理、司法证明、法律解释、法律论证和疑难案件中的道德判断等。法律大语言模型在情感、道德、逻辑推理、决策机制和经验学习等方面仍然与法律人有本质的差异,因此,法律大语言模型的司法应用需要在严格的规范之下合理使用。
法律大语言模型赋能司法,是指面向司法领域的生成式人工智能因其在法律语言理解、法律知识问答、法律预测和法律文本生成等领域表现突出,从而支持法律人进行更高效和精准的司法决策,为公众提供智能化的法律咨询服务等过程。与通用大语言模型相比,法律大语言模型具备更强大的法律大数据分析和处理能力,更专注于解决法律问题。在全球范围内,大语言模型已经在法律工作中展现出应用价值。哥伦比亚法官在审理一起自闭症儿童医保案时使用了ChatGPT,这被认为是“全球大语言模型审判第一案”。近期,英国发布了《人工智能司法人员使用指南》,为法官和书记员等司法人员使用人工智能提供指导,该国也已有法官使用ChatGPT辅助生成了一起知识产权纠纷案件的裁判文书。我国苏州市中级人民法院在国内率先开展了生成式人工智能辅助办案系统的试点建设工作。深圳市中级人民法院推出了全国首个司法审判垂直领域大模型。应当说,在当前法律行业的需求推动下,大语言模型展现出了其在司法领域的强大潜力,使得法律大语言模型迅速成为领域大语言模型研发的主流方向之一。然而,大语言模型的兴起也引发了对其能力和适用性的误解。美国纽约两名律师向法院提交了六份由ChatGPT生成的司法判决,其中包含错误引用和生成不实的内容。巴西一位联邦法官因使用ChatGPT生成裁判文书出错而受到国家司法委员会的审查。这类事件反映了大语言模型可能被不当使用,导致其作用被过度夸大,造成了公众期望与实际应用效果之间的巨大鸿沟。这种误解给大语言模型的研发和应用带来了巨大挑战,反而阻碍了其长远发展。在司法领域,生成式人工智能有广阔的运用前景,如可用于法律文书的生成,甚至带来裁判方式的变革。从技术逻辑来看,法律行业所强调的法律自然语言处理与法律内容生成能力和大语言模型具有内在逻辑的契合性。然而,有观点认为大语言模型的底层运作原理决定了它只是一款运算程序和机器学习模型,并不具有人类的自我意识和自由意志。人类决策是有意识的内容生成,在规则理解、价值判断和司法经验上反映着人类理性和法治人文精神,而机器则是依概率猜测的内容生成,算法决策很难作出伦理道德善良风俗和经验理性等方面的考量。因而,法律大语言模型有其能,亦有其所不能。为厘清大语言模型的功能和局限,需要从其开发原理着手,审视其技术优势与不足,由此明确大语言模型的适用场景,同时也辨别其无法胜任的领域。澄清大语言模型的应用边界能够促进其在合理的范围内被正确使用,从而最大限度发挥它的应用潜能。法律大语言模型是基于通用大语言模型(如ChatGPT或通义千问等)的框架构建的垂类大语言模型,它通过对法律大数据集(包括法律文书、司法案例和法律法规等)进行二次训练和指令微调(又称精调),并将专门的法律知识融入模型,最终形成了具备解决法律任务能力的生成式人工智能。通过分析各种开源大语言模型的训练方法,不难归纳出一个共性的模型训练框架。以“智海—录问”法律大语言模型为例,法律大语言模型的训练过程可以概括为四个步骤。二次预训练的目标是将通用大语言模型训练转化为适用于司法领域的专业化模型。训练过程始于构建包括法律法规、判例、法律文书等内容的法律文本大数据。通过严格的数据清洗和去重工作,确保训练数据集的高度准确性和一致性。随后,采用句子嵌入技术将文本转换为向量格式,以便机器捕获语义层面的信息。在此基础上,通过聚类算法对向量进行分析,揭示文本中的模式、主题和关键词。在预训练阶段,选用深度双向变换器模型(如Bert)或上下文敏感的词嵌入模型(如ELMO)等深度学习模型,采用无监督学习方法以增强机器对复杂语言结构和术语的理解能力。二次预训练的方法提升了模型在司法领域中的性能,使得模型具备处理专业法律文本大数据的能力,特别是在解析法律文书和案例时,能够一定程度地理解法言法语。为提高模型在处理法律任务时的性能,模型还需要进行指令微调。首先,需要构造一个微调数据集,这些数据集应包含多样化的法律指令,包括案情摘要、法律适用、罪名预测和刑期预测等多类法律任务。其次,利用二次预训练后的通用大语言模型来再生成与法律任务相关的指令。这一步骤旨在增强模型在不同法律问答场景下的应对能力。通过对特定任务进行指令微调,可以有效提高模型在这些任务上的性能。在微调阶段,需要对模型的关键参数和结构进行精细调整,以优化模型的学习过程,使其适应特定的法律问答任务。这包括调整学习率、选择适合的优化器以及定义合适的损失函数等。最后,在完成参数调整后,模型需继续接受针对法律问答数据的训练。这一阶段的训练将进一步提升模型的语言理解能力,并使模型的权重向更适应特定法律任务的方向转变。为增强输出结果的可解释性,法律大语言模型通常采用检索增强生成的策略。该策略通过提供先验知识作为输入的上下文来增强大型语言模型的输出。具体而言,检索增强生成首先从法律知识库中检索出与提问相关的文本片段,然后大语言模型结合这些检索到的文本片段生成更准确和相关的回答。在这一方法中,构建一个高质量的法律知识库至关重要。法律知识库通过数据处理,将法律大数据转换成统一格式,并提取摘要和关键词等信息,以便快速检索。这一知识库为大语言模型提供了必要的案例和法律法规,帮助模型在生成回答时引用相关的法律知识。此外,为了提升大语言模型在复杂法律问答场景中的性能,还需要优化知识检索模型。通过机器学习训练检索模型,可以提高其在关键词匹配和语义相似度检索方面的准确性,从而确保检索到的信息高相关且有用。法律大语言模型训练的最后一步是模拟真实的法律问答场景,采用人类反馈强化学习(RLHF)来增强模型在实际问答中的表现。这种模拟通过神经会话模型进行多轮对话实验,以精确重现和测试模型在真实对话环境中的交互能力。在性能测试阶段,模型通过专门设计的测试集进行评估,量化其在案件信息抽取、法律文本摘要、法律检索等法律任务中的表现,并获得准确率和召回率等性能指标。专家评估阶段由领域专家测试模型的输出,目的是评估模型在实验中和实际应用中的可靠性和有效性,帮助验证模型在现实情境中的适用性。最后阶段是误差分析,此过程包括识别和分类模型输出中的错误(如逻辑或事实错误),并分析这些错误的原因,例如数据偏见或模型架构限制等。误差分析的目的是深入了解模型的局限,并为其下一步优化和改进提供指引。综上,法律大语言模型的训练过程可以概括如图1所示。
法律大语言模型较传统的法律人工智能有其技术优缺点,分析它们对于厘清法律大语言模型的边界有重要作用。大语言模型的优点是其能够胜任法律任务的直接原因,而缺点则限制了它在处理复杂法律问题上的能力。大语言模型通常基于深层神经网络架构,如Transformer模型,尤其是Bert和GPT深度学习架构。这些模型通过自注意力机制,能够捕捉文本的长距离依赖关系和复杂的语言结构,从而更有效地理解法律文本。在自然语言处理领域,大语言模型不仅能解码句子结构,还能初步理解法律文本中的微妙语义和统计意义上的逻辑关系。经过大规模数据的训练,这些模型甚至能够理解法言法语的特征和法律文本的语义结构。法律大语言模型需要运用法律大数据进行二次训练,其因深层神经网络架构而具备超大规模法律数据处理能力。大语言模型利用无监督的学习方法从法律大数据中提取法律语言特征,再通过对特定的法律任务进行微调,从而提高在法律任务上的性能。大语言模型还被特别训练以适应国际上不同法律体系的法律大数据,以增强在多元法律体系中的通用能力。法律大语言模型继承了其基础大语言模型的“通用性”特点,使其能够处理基础模型所能胜任的文本生成任务。通过使用法律大数据进行二次训练,大语言模型得以适应并执行多种法律任务。这种“通用性”赋予了它在处理新任务时的强大泛化能力,通过对特定法律数据的进一步微调或再训练,模型能够灵活适应不同的法律问题。然而,需要注意的是,这种“通用性”主要适用于常见的法律任务,并不能处理所有类型的法律任务,尤其是复杂的法律任务。基于提示词或指令(prompt)的问答机制允许使用者以自然语言形式提出问题,而模型则通过理解问题并迅速检索相关信息来响应。这种方式不仅让使用者交互更加直观和友好,还能够根据使用者的交互历史提供个性化体验,引导使用者成为“提问工程师”。随着个性化问答的频次增加,大语言模型通过持续的学习和优化,能够更好地适应使用者的个性化需求。法律大语言模型运用自然语言处理和生成技术来分析和模仿不同类型法律文本的结构和内容。模型通过大规模的法律文本训练,掌握法律写作的特定格式和惯用表达。这种训练涵盖从基础的词汇学习到高级的语义理解,通过深入学习法律术语、格式和先例,能够自动产生符合专业标准的诉状、合同和判决书等法律文书。在生成法律文书时,模型会采用特定的策略来确保文本的准确性和专业性,包括使用预先定义的模板,或根据先前案例和标准格式自动调整文本结构。法律大语言模型善于归纳由法律大数据所得到的一般性法律知识,但仍不能够深度理解法律知识背后的真正含义。法律知识不仅是描述性的,更是规范性的。它不仅关乎法律应该是什么,还关乎法律是如何运行的。“法律知识表达的核心问题是法律解释。”法律体系包含非常复杂的知识体系,由法律概念、法律原则、法律规则、判例以及法律解释所构成。这些元素相互关联,构成了一个密集的法律知识网络。理解法律知识体系需要深入的法学专业学习和丰富的法律实践经验。大语言模型擅长为法律人提供知识检索和专家辅助决策,但是仍无法真正理解法律知识的含义,也难以解释疑难案件裁判中所蕴含的法律知识。基于法律体系的开放性,法律知识不是静态的,而是不断变化和发展的。大语言模型的大数据学习方式显然存在知识更新的滞后性,因而导致预测的结果失准。
法律大语言模型同样受到通用大语言模型的可解释性问题的影响,仍然无法对预测的结果作出合理的解释。人工智能法官更像是一个难以说服的黑匣子权威,即使它确实通过在其司法“意见”中提供理由来模仿人类。大语言模型的算法模型类似于“黑箱”,其内部决策过程对使用者来说不透明,很难确定算法如何以及为何作出特定的决策、建议或预测。法律问题可能具有高度的复杂性和模糊性,解决问题需要处理矛盾的证据,评估不同的法律观点,以及在不完全信息下作出合理的推断。大语言模型在处理这些复杂和模糊情况时可能遇到困难,特别是在需要权衡多个相互冲突的法律原则或解释含糊的法律条文时。而且,大语言模型的训练依赖于现有的数据集,其推断和解释主要基于已有数据,这可能导致模型在处理未覆盖或偏离训练数据集的新问题时,无法提供充分的解释。
法律大语言模型在使用检索增强方法时存在显著局限性,其生成结果高度依赖于检索到的法律文本片段质量。如果法律知识库中的数据不完整、不准确或不相关,生成答案的质量将显著受影响。此外,不同来源的法律文本在语言风格和术语使用上可能有所差异,模型在处理这些法律文本时,可能会产生混杂表达,导致答案的连贯性问题。尽管检索增强方法通过获取外部知识库中的相关信息增强了模型对司法领域知识的访问能力,但这些信息主要用于补充生成模型的知识,而不是用于推理或逻辑分析。因此,检索增强方法在知识丰富度上有所提升,但在知识推理方面仍有不足。知识库的构建需要高质量的语料库和精细的索引机制,如果知识库内容不够完善或索引机制存在问题,会影响检索的精准性,直接导致召回率和命中率降低,使模型的回答准确率下降。
法律语境在法律判断中起着关键作用,如社会背景、文化、地域、时间,甚至是当事人的心理状态等。大语言模型在理解和分析这些多维因素上存在局限,因为模型通常依赖于可量化和明确的数据,而这些语境因素往往难以被完全量化或明确界定。司法裁判不能忽略法律语境,尤其是在疑难案件中。大语言模型无法深入理解和分析案件中的模糊和非量化因素,如个人经历、心理状态、文化信仰和地域特殊性等。司法裁判往往需要深入的洞察和细致的语境分析,这是当前大语言模型难以完成的。只有结合法律人的专业知识和经验,才能更准确地评估和解释法律语境。
法律大语言模型无法保证生成完全准确或与现实完全相符的信息,导致生成的内容可能是虚构或不符合事实的。其一,训练数据的不规范会导致生成内容虚假。如果训练数据中包含了错误或失效的信息,那么模型在生成内容时可能会复制这些错误,极可能产生错误的案例和法律法规。其二,偏见会导致生成的内容不真实。人工智能会产生偏见,即便程序员没有设置任何的偏见。大语言模型因为“涌现”属性而出现设计者从未预料到的行为模式,这种能力会放大偏见所带来的不真实结果。其三,创造性生成会引发“反噬”作用。大语言模型因其生成文本的特点而具备一定的“创造性”,然而,这种“创造性”极可能会创造完全虚构的案例、事件或解释,导致生成的内容偏离事实或现实情况,尤其是在没有足够相关数据支撑的情况下。
法律大语言模型的司法应用可以分为四个方面:(1)法律语言理解是运用大语言模型对法律大数据进行文本清洗、实体及其关系抽取、句法分析和语义分析之后,实现案例要素抽取、法律文本摘要、法律文书检查和法律论证挖掘的应用;(2)法律知识问答是运用大语言模型来增强检索能力,从而回答法律法规、案件检索和法律程序等问题的应用;(3)法律预测是运用大语言模型来增强模式识别和结果预测的能力,实现判决结果预测、量刑预测和案情分析的应用;(4)法律文本生成是运用大语言模型的“创造性”能力,根据需求输出不同类型的法律文本。大语言模型通过信息抽取技术从法律文本中精准提取案件要素,辅助法律人聚焦案件的关键信息。信息抽取是通过实体识别技术来识别文本中的命名实体,既包括人物、地点、组织名等实体名称,也包括证据识别、法律条款和判决结果等实质信息。接着利用关系抽取技术进一步抽取这些标注实体之间的关联,揭示证据之间的相关性、双方的诉辩陈述、案件的关键特征以及争议焦点等,从而辅助判断文本中隐含的案件事实。
法律文本摘要是对法律文本进行归纳和总结,从中提取关键信息并形成精炼、准确的内容摘要。在数据预处理和特征提取阶段,从清洗后的数据中提取合适的特征,而后选择合适的深度学习模型来训练和优化模型。在预测输出阶段,模型根据已训练的数据对新文本进行预测并生成摘要。这个过程不仅涉及关键词的提取和排序,还要将提取的信息转化为连贯、简洁的摘要文本。这样生成的摘要既要覆盖法律文书的核心内容,同时也要保持原始信息的准确性和完整性。
法律文书检查是在给定文本中自动识别出语法、法律术语或法律规范的错误,并对错误进行修正的应用。法律文书检查既检查文本自身的语法,包括对字词、句子、标点和表述等进行正确性和规范性检查,对不符合语法规则的句子进行提示和修正;还包含对待审核文本中的法律条款进行详细校验,以识别与现行法律法规的相似性和差异。如果检测到法律文本中的内容与法律法规相矛盾,那么输出结果会提出警示。
法律论证挖掘专注于从法律文本中自动提取论证,它包含了证据推理挖掘。它的主要任务是通过识别、分类和分析法律话语中的论证来自动检测和还原文本中的论证结构。法律论证挖掘的过程首先对法律文本中论证的基本单元(前提、结论和推论关系等)进行精确标记,并识别不同类型和结构的法律论证。随后,挖掘过程聚焦于识别文本中的论辩性成分,包括确定论辩性句子及其在文本中的起始位置。接着,使用神经网络算法识别论证间的关系,包括论点间的支持和攻击关系。
法律法规问答是一种以法律法规检索为目标的问答,既包括对法律法规自身的检索,也包括对法律法规适用和解释的问答。大语言模型首先分析提示词中的关键词,提取出问题的核心信息并理解搜索需求。随后,在法律法规数据库进行全文搜索和关键词匹配。大语言模型不仅检索查询的法律条文,还运用上下文分析技术理解查询的深层含义及可能的法律解释,再根据相关性、时效性等多种标准对结果进行精确排序,评估每个检索结果与查询的相关性。检索的输出结果以法律条文的摘要或相关条款的解读形式呈现给使用者。
法律程序问答专注于提供与法律程序及其相关任务的解答,包括立案程序、起诉程序、受理程序和审理程序等。大语言模型通过在法律法规和案例大数据库中的二次训练,具备了精确匹配法律程序相关法律法规和先例的能力。当使用者发起关于法律程序的查询请求时,大语言模型使用深度学习和语义分析算法定位最相关的法律信息,并根据这些信息检索最相关的法律程序并生成解决方案。法律程序问答的输出结果通常表现为法律程序的流程说明、步骤指导或程序性条款解读等。
类案检索问答是一种面向案例的法律信息检索方法,在数据库中查找与案例具有法律上或事实上相似性的案例,推送类案的判决结果与适用的法律规则。大语言模型首先对使用者的检索需求问题进行分词、词性标注和句法解析,进而识别文本中的关键实体(如案由、当事人和法律法规等)及其关系。随后,通过信息检索技术来创建对案件标题、关键词、引用法律条款等的索引,再采用布尔搜索或向量搜索等算法在案例数据库中执行搜索。大语言模型还可以根据新的检索需求,通过提示词数据分析来优化搜索算法,提升搜索结果的精确性。
判决结果预测是运用大语言模型的大数据推断能力来预测判决的结果。大语言模型擅长分析和处理庞大的法律数据集,包括案例、法律法规和诉讼文书等,再通过机器学习算法从这些数据中识别模式,从而预测案件的裁判趋势。机器学习算法自动检测有关过去法律场景的数据模式,然后据此推断以预测未来法律情景的结果。大语言模型从法律大数据中提取关键特征,包括案由和适用的法律法规等。然后,使用大语言模型算法来训练判决结果的预测模型,使其学会识别案件特征与判决结果之间的关系,从而为新案件预测判决结果。
刑期预测是刑事案件事实认定之后的量刑预测问题,既可以是检察机关的量刑建议,也可以是法官作出的量刑裁判。刑期预测不仅需收集犯罪嫌疑人或被告人的基本信息和历史犯罪记录等资料,还包括罪名定性、犯罪金额、犯罪情节以及自首、认罪认罚等量刑情节。大语言模型首先通过特征工程提取量刑要素,然后运用大语言模型算法来进行特征训练,学习先例数据中案件特征与刑期之间的关系。而后基于这种关系预测模型,对新案件的刑期进行预测。
案情分析是对案件信息进行深入挖掘,从中发现隐藏的信息和规律,并据此预测得到合理的结论。案情分析首先要收集和整理案件信息,包括案件当事人的背景资料、主观动机、行为方式和案件情节等各种细节。然后,需要对这些信息进行分类、筛选和归纳,尝试构建相应的假设和理论框架。而后使用大语言模型对之进行测试和检验。
法律文本生成是运用法律信息抽取和法律预测等技术,结合自然语言生成技术,生成规范性法律文书的应用。法律文本生成的类型包括裁判文书、起诉书、公诉书、答辩状、办案报告等。这些法律文本的结构不同,但是生成的原理相似。首先,大语言模型理解使用者的指令,通过法律信息抽取技术进行分词(将文本分解成词汇或短语)和句法分析(理解每个词汇在句子中的作用),而后利用命名实体识别技术来识别文本中的实体及其关系。其次,在模型训练阶段,使用神经网络模型来处理和生成自然语言文本。这个训练过程会结合法律知识库进行知识增强。在生成法律文本时,需要将抽取的信息与知识库中的知识进行关联,通过法律预测获取文本的关键要素,包括案件中的因果关系和法律适用等。在此基础上再使用自然语言生成技术来生成规范性文本,包括文书的排版、语法结构、法律术语的使用等,保证文书语言的自然流畅和专业准确。最后,法律文本生成不仅需要符合特定的格式规范,还要在生成内容上满足指令的要求,这就需要对模型进行微调,使用特定的指令来调整模型,以提高模型的预测准确性和相关性。大语言模型还通过人类强化反馈机制,经过多轮次的强化学习来不断改进模型,包括错误检测和纠正机制。尽管大语言模型在司法领域表现出强劲的应用潜力,但在法律推理、司法证明、法律论证以及司法自由裁量等领域仍然面临极大的挑战。这些挑战不仅源于生成式人工智能技术层面的局限性,还由于法律实践本身的复杂性和人类认知的独特性所致。司法决策不仅涉及对文字和语言的处理,更需要对法律概念、原则和规则的深刻理解,以及在具体司法情境中的灵活应用。大语言模型擅长法律大数据推断(inference),这是一种基于概率拟合的统计学推断,其发生原理与法律人的法律逻辑推理(reasoning)有本质的差别。大语言模型的推断能力源于其海量数据训练和复杂的神经网络架构,超大规模参数赋予了大语言模型“涌现”的能力。思维链(chain-of-thought)方法的引入提升了大语言模型解决复杂问题的能力,使得模型能够生成一系列的中间步骤,这类似于人类解决问题时的逻辑思维过程。然而,大语言模型推断能力背后的生成机理仍然模糊不清。因此,大语言模型继承通用大语言模型的逻辑推理能力并不可靠,更无法满足司法对透明性和可解释性的要求。比较而言,法律人的逻辑思维与生俱来,经过法学专业学习和法律职业锻炼又形成了特有的法律逻辑思维。霍尔姆斯认为法律逻辑思维是法律人的基本素养,他在《法律的道路》一书中说道:“法律人的训练,是逻辑的训练。类推、区别、演绎等方法,都是法律人拿手的绝活。司法判决所使用的语言,主要都是逻辑语言。”在传统逻辑的各个分支当中,演绎推理最受法学家的关注,司法三段论被奉为是法律推理的“圭臬”。类比推理和归纳推理在英美法系国家是判例推理的逻辑基础。无论是演绎推理还是类比推理或归纳推理,法律逻辑推理的基本特征是可解释性,即由前提推理得到结论的过程是可解释的。如果推理出现错误,那么可以追溯找到推理的错误所在。大语言模型还远不能够替代法律人的法律推理。首先,法律专业人员在处理案件时依赖于对法律原则和规则的深入理解以及对个案事实的综合考量。他们不仅分析案件材料,还将法律知识和经验应用于具体情境,进行更为深入和个案化的分析。其次,大语言模型虽然能够处理某些逻辑结构(如模式识别或数据驱动的因果关系等),但在更复杂的法律推理方面,如包含复杂证据和推论的深层次逻辑分析和严密的证明过程,其推理能力有限。大语言模型的“推理”是基于模式匹配和概率推断,而不是由高阶智能产生的逻辑推演。再次,大数据推理的逻辑不同于人类推理的思维逻辑,两者有本质上的区别。以类比推理为例,它是一种扩展性推理,这种比较源于人类对相似性的判断,它是从常识和经验中获得的。最后,法律人的法律逻辑推理除了形式推理之外还有实质推理的因素,法律人的决策往往依赖于过往的经验和直觉来作出判断,它们是在长期的法律工作中积累的。大语言模型无法从大数据视角来理解个案的情境,也无法像法律人那样通过长期的法律实践和经验积累来提升法律决策的质量。因而,大语言模型仍无法通过抽象的逻辑思维来理解法律概念及其之间的关系并将其应用于新的情境。“司法证明指事实主张者(一切案件中的当事人、公诉人)或反驳者(往往是另外的事实的主张者)在诉讼(特别是庭审)中通过举出人证和物证的方式,对待证事实(诉争事实)进行证明。”司法证明以证明案件事实为目标。对待证事实的证明首先要采纳证据,常见的标准包括:关联性标准,即证据的自然属性是证据与案件事实之间客观存在的联系;合法性标准,即证据必须在取证的主体、程序、手段以及证据的形式等方面都符合法律的要求或规定。证据还需要进一步得到采信,最基础的标准是真实性标准,即证据经过查证属实才能作为定案的根据。显然,对证据的采纳和采信都离不开法律人对证据的主观性评估。例如,在评估证据的关联性时,需要借助经验和对因果关联的判断来认定证据与事实之间是否有关联;又如,真实性标准最终还要依赖人来判断法律事实是否足够逼近客观事实。然而,大语言模型依靠机器学习算法来实现自主学习和迭代优化的性能,其设计和运行机制决定了它只能通过数据训练和算法计算来预测和辅助决策,而不具备像人类一样去感知、思考和判断事物的能力。这意味着大语言模型无法通过观察、分析和比较等方式来感知证据的存在,同样也无法确定证据来源的可靠性、证据内容的完整性、证据间的矛盾点等更深层次的问题,因而,大语言模型难以处理司法证明中的证据认定。除了对证据本身的认定,司法证明还需要深入探讨证据与案件事实之间的联系。现有司法解释明确要求裁判者“运用证据进行的推理符合逻辑和经验”。法官需要运用其丰富的法律专业知识,审判经验以及逻辑思维能力,对控辩双方提供的证据进行审查和评估,最终确定案件的基本事实。“与存在的客观性相比,经验性是事实的本质特性。事实是人通过感官和思维所把握的真实存在。”案件事实认定需要遵循一定的程序规则。法院审理案件通常采用的是“控辩式”模式,即控方负责提供证据,辩护方则有权提出质疑和反驳。因此,法官需要在庭审中听取双方的陈述和质证,并对证据进行严格的审查和判断。同时,案件事实认定还需要具有说理性。法官需要将自己的内心确信转化为释法说理,使得审判能够被理解和接受。这种说理性不仅体现在法官的判决书中,还应该贯穿整个审判流程中的所有法律文书之中。然而,大语言模型难以准确识别和处理与案件相关的复杂法律问题和细微的事实差别。同样,大语言模型也无法避免算法偏见所带来的歧视问题,甚至会因为算法的偏见导致预测结果的不公正。“事实乃是对呈现于感官之前的事物或现象的某种实际情况的一种断定或陈述。”人工智能能够解决语法问题,但尚未逾越语义和语用两道屏障,因而,人工智能对事实认定结论的表达目前尚属一种理想。因此,虽然大语言模型可以在一定程度上辅助司法证明的工作,但最终的判断还是要依赖于法律人的智慧。法无解释不得适用。“法律解释是指定特定法律规定意义的说明。”为了避免法律的机械适用,必须对法律进行解释。法律解释有利于实现立法目的、统一法律适用、约束法官的自由裁量权,并保障人们对法律安定性的合理预期。作为一种法律方法,法律解释衍生出多样化的理论阐释。萨维尼将法律解释方法概括为文义解释、体系解释、目的解释和历史解释。例如,文义解释又被认为是法律解释的最基本方法,具体涵盖了字面、限缩、扩张、法意、合宪、体系、语法和比较等解释方法。但法律解释并不能简单等同于对法律文字本身的解释。阿列克西的外部证成理论旨在对解释进行证成,解释的准则可以分为六组:语义学解释、发生学解释、历史解释、比较解释、体系解释和目的论解释。苏力教授还将法律解释方法归纳为文义解释、法意解释和目的解释、语境解释和体系解释等。显然,大语言模型虽然能进行基本的文本分析,但缺乏理解法律文本背后深层含义的能力,包括理解法律条文的目的、法意,及其在特定社会、历史语境中的意义。大语言模型无法像法律人一样捕捉法律语言的微妙性和复杂性,无法进行原创性思考和创新解释,缺少对法律原则的深入理解。因而,大语言模型尚不能够胜任通过法律解释来阐释法律规定的意义。法律解释的最直接含义是法官在法律文义的可能范围之内进行解释。文义解释是对法律文本的字面含义所进行的解释。通常有两种理解:一是针对法律文本的字面含义,按照语法结构和语言规则、通常理解等方法所进行的解释;二是使文本的字面含义具体化,阐释其字面含义,确定文本的意思。由于文义解释通常不考虑法条字面以外的因素,因而大语言模型可以在一定程度上对法律概念、法律条款和法律案例进行文义解释,这主要涉及对语言的理解、语法结构的分析以及在一般语境中的常规理解。然而,对于需要借助法理、复杂语境和生活经验的文义解释,大语言模型仍然不能够胜任。比较而言,大语言模型在复杂的法律解释方法上更不尽如人意。以体系解释为例,体系解释是通过整体来解释某一具体法律规范的含义,它以法律的外在体系为基础进行解释。换言之,体系解释就是将法律条文放置在整个法律体系中进行解读,通过考察其与其他条文的关联来进行法律解释。体系解释依赖于法律人对法律体系的充分了解以及案件本身相关的法律法规,由此作出合乎逻辑的解释。大语言模型难以根据对法律体系的内在关系的理解来进行合理的关联性解释,因而对于这类任务不能够给出合理的系统解释。同理,在当然解释、目的解释、历史解释和社会学解释等方面,大语言模型也尚不具备法律解释的能力。法律论证是法律人论证命题之正当性的法律方法。大语言模型擅长法律论证的挖掘,即将文本中的法律论证以结构化方式再现,但是并不能构造法律论证。“当人工智能法官在制定有说服力的法律论证方面变得非常有效时,就没有理由更喜欢人类法官了。”法律论证的论题包括规范基础的哲学论题、法律论证结构和可接受性的规范理论论题、重构法律论证的重构论题、法律论证的构建和评估的经验论题。法律论证理论形成了诸多分析和评估法律论证的方法。图尔敏受到“法学的一般化模型”的启发,提出了一个基于司法程序的新论证模型,后人称之为“图尔敏模型”,这种模型不同于形式逻辑评价论证的有效性标准,而是强调了论证评价标准的“领域依赖性”。佩雷尔曼重新激发亚里士多德的传统修辞学的魅力,他系统整理了价值论断的论证技巧和证成模式,建构了以“获取听众认同”为主导的新修辞学理论,并成功将其拓展到法律论证领域。沃尔顿提出了新论辩术理论,他将对话分为不同目的驱动的六种类型,并且基于该理论重新诠释了论证图式、承诺和谬误等概念,法律论证被重构为一种说服性对话。爱默伦构建了语用论辩学,研究批判性讨论的分析、比较和评估理论,并给出了相应的程序性规范理论。菲特丽斯将语用论辩学应用于研究法律论证。这些法律论证理论都致力于构建法律论证的分析、比较和评估理论,为真实的法律论证实践提供方法论支持。然而,大语言模型无法理解这些法律论证理论的构建原理和思想,因而也不具备采用这些精细化方法来分析和评估法律论证的能力。从动态过程及主体互动等因素考虑,法律论证分为独白式(monological)和论辩式(dialectical)两种类型。独白式的法律论证由法律推理所构成,可以解构为“大前提+小前提→结论”的类三段论模式。作为大前提的法律法规适用又可以分解出固定请求、寻找基础规范和分解规范要件等任务,而作为小前提的案件事实认定则包含检索诉讼主张、整理诉讼争点、证明要件事实和认定要件事实等任务。法律论证总结了主要的论据类型和论证方法,使法律人在实践中能以最有效的方式提出最有力的论据。然而,这并不意味着法律论证由前提推出结论的逻辑机制是僵化的。法律论证的解释性功能并非僵化不变的,由于成文法自身的缺陷,法官为了实现社会正义在某些情况下需要“背离”法律条文的规定,通过在个案中的创造性解释活动把僵化的成文法变成具有生命力的合法合理的裁判规范。比较而言,论辩式的法律论证突出法律论证的多主体性、动态性和论辩性特征。法律论证不仅依赖于法律规则和逻辑结构,还受到特定领域和情境的影响。图尔敏指出法学的主要任务是刻画法律过程的本质:提出、争论和决定法律主张的程序。大语言模型对案件特定情境的适应性不足,它缺乏高度专业化的辩论技巧。因而,大语言模型难以模拟法律论证实践中的情境依赖性,特别是在解读法律文本、适应法律程序的动态性、运用修辞学和语用学方法等方面。因此,尽管大语言模型能处理一些规范化的流程性问题,但在需要深度专业知识、论辩策略和人际交流技巧的法律论证中,则显得能力有限。自由裁量权存在于两种情况:一是法律没有任何规定的情况,但法律没有规定未必存在自由裁量权。二是法律有规定,但规定不具体或者不明确。司法自由裁量权是指法官或者审判组织根据自己的认识、经验、态度、价值观以及对法律规范的理解而选择司法行为和对案件作出裁判的权力。司法自由裁量权是法律赋予的司法权力,尽管包含了法官的个人主观因素,但仍然体现的是司法意志,在司法上表现为一种优先权力。计算机量刑也有自由裁量的问题。一方面,在设计阶段就给了法官一个调整的系数空间;另一方面,对情节、态度等因素的考虑,根本上还是取决于法官主观的判断,这也是自由裁量的表现。司法自由裁量权可能在不依照现行法律规定的前提下来优先行使,它可能受到法律原则或法律精神的影响。自由裁量尤其出现在司法没有明确规定且法律适用困难的情境下,既包括对公序良俗、公共利益、重大利益、严重影响、严重危害、严重违法、从重处罚和情况紧急等不确定法律概念的解释和判断,也包括对惩罚方式、赔偿额度、量刑区间进行选择的自由裁量。司法裁判是法官在特定的时间和背景下作出的,其中包含着法律传统、文化背景和政治制度等多种因素。在司法实践中,自由裁量的水平取决于法官个人的法律素养、办案经验和司法能力,甚至与法官的道德水平和价值观密切相关。法官进行裁判往往需要在政治效果、法律效果和社会效果之间寻求平衡。司法自由裁量是法官巧妙运用自由心证和司法解释,填补法律漏洞以及应对新型和疑难案件的有效手段。法官的自由裁量是一种复杂的,依赖个人经验和价值观的能力,包括对法律精神的深刻理解和对社会伦理的判断。“人类法官的思维过程将永远是被告人量刑的最终仲裁者,人类法官将始终决定对被告的刑罚程度。”而大语言模型目前无法模拟这种复杂性,特别是在处理模糊性问题,进行道德判断和提供创造性解决方案等方面。(1)大语言模型缺乏法律人的职业经历和文化背景,无法形成真正的认知和价值观。它的“经验”源于其训练数据,仅仅依据输入的数据进行计算和推断,而这些数据无法完全捕捉到法律决策的经验性和人类情感的复杂性。(2)大语言模型虽然可以通过编程来识别特定的法律规则,但它无法真正理解法律规则背后的深层意涵,特别是当涉及“公序良俗”等法律概念时。(3)大语言模型在处理模糊性和不确定性问题时存在明显的局限性,它依赖于明确和清晰的指令问题,根据被定义的参数和规则来推断结论。但是当遇到需要灵活解释和判断的情况时,大语言模型可能无法作出与人类法官相似的决策。(4)大语言模型的“滥用”甚至会导致司法权的“嬗变”。“一旦形成算法专制的局面,法庭辩论、上诉审、专家酌情判断的意义都会相对化,结果将导致法官的物象化、司法权威的削弱、审判系统的解构,甚至彻底的法律虚无主义。”(5)大语言模型难以提供创新性和适用性强的解决方案,尤其是在法律漏洞填补和新型、疑难案件应对方面。因而,大语言模型不能够,也不应该代替法官行使自由裁量的权力。司法裁判需要接受公众的检验,因而法官作出的判决往往蕴含了道德判断。法官在作出判决之前会根据法律原则和法律规则进行权衡和比较,这当中不能回避情感和道德因素。法官在审理案件时需要面对各种各样的道德困境和社会问题,其既需要考虑案件本身的法律判断,也需要作出受到公众普遍认同的道德判断。道德判断不仅仅是对个案的具体情境进行分析和评估,还要考虑到社会的整体价值观和文化背景等因素。当法律和道德之间表现出冲突时,法官可能依据道德原则来调整原先的法律判断,这样的调整既要消除法律与道德判断之间的不协调,而且还要获得普遍的道德认同。道德争议案件的司法裁决应坚持理性主义的伦理学立场,通过理性的论证赢得大多数人在道德上能够接受的解决方案。道德判断往往包含了受到普遍认同的道德或伦理规则,道德法律化现象也为道德规则化提供了先天条件。立法手段可以选择和推动一定道德规范的普及,即以法律规范形式确认和吸收某些道德标准,使之成为法律标准,从而推进法律目标的实现。大语言模型擅长模式识别,通过学习包含道德判断的先例大数据,可以识别出法律情境中普遍适用的道德和法律规则,进而作出道德判断。法律原则自身就可以作为道德或伦理规则的来源,因为法律原则体现了实质性的道德判断并且具备可普遍化的能力。例如,大语言模型学习得到“生命优于财产”的伦理规则,对于“因饥饿而抢劫”的案例会充分考虑道德和社会正义的权衡。因而,大语言模型可以通过机器学习来解决常见或一般的伦理或道德问题,从而具备一定的道德判断能力。然而,大语言模型仍然不能够产生情感和道德意识,也就不能真正理解“公平”和“正义”等概念的含义。疑难案件中的道德判断涉及非常复杂的道德权衡问题。大语言模型缺乏对社会价值和伦理原则的理解,因此难以在复杂的社会和道德问题上作出合理的判断。疑难案件中的道德问题往往涉及复杂的历史背景、深层次的社会价值观和特定群体的经验,这类问题要求对文化差异、社会规范和道德观念有深刻的理解。泸州遗赠案中的道德判断难题就是认定遗嘱行为是否已经从道德要求上升为具体的法律禁止性规定。显然,这类疑难案件所包含的道德因素超出了大语言模型的学习范畴,大语言模型难以真正理解和应用道德准则,因而难以对疑难案件进行道德判断。此外,大语言模型在处理尚未被广泛理解和接受的复杂问题时,缺乏创造性思维,因此难以提出符合道德标准的创新解决方案。例如,假设一辆自动驾驶汽车发生了交通事故,造成对行人的伤害。判断责任归属的问题非常复杂,涉及制造商、软件开发者、车辆所有者以及被害人等多方。在这类案件中,大语言模型难以提供一个全面且创新的解决方案。又如,如果法官使用智能审判系统作出裁判而导致错案的发生,在讨论如何认定责任时,大语言模型从传统的责任分配说出发认为法官和智能审判系统共同承担责任的观点,这没有真正理解法官独立审判的司法规律。因而,大语言模型只是实现公平正义的辅助工具,它不能在包含道德判断的疑难案件中替代法官裁判。为规范法律大语言模型的司法应用,司法机关应从制度上保证其合理使用。法律大语言模型作为一种法律垂类的生成式人工智能,受到《生成式人工智能服务管理暂行办法》的规制,但由于司法领域的特殊性,在评估机制、审查机制、数据安全保护机制等方面面临新的挑战。在司法机关引入法律大语言模型之前,应建立严格的评估机制,以确保只有经过测试和验证的模型才能在司法场景中应用。为此,司法机关应成立一个由法律实务专家、法学学者和技术专家组成的评估资格咨询委员会,负责审查和评估法律大语言模型的使用资质。评估过程需要依赖标准化的测试,这要求构建科学的测评体系和方法,重点关注法律大语言模型的功能、性能和安全性指标。第一,功能性评估主要关注法律大模型是否具备完成特定法律任务的能力,包括法律语言理解、法律知识问答、法律预测和法律文本生成等方面。功能性评估的目标是测量和评估法律大语言模型在特定法律任务中的表现。通过输入相应的任务提示,评估检查模型的输出结果是否达到预期的任务目标。例如,在法律文书生成任务中,评估的重点是模型是否能够根据输入的法律事实和要求生成符合格式和内容标准的法律文书。第二,性能评估关注法律大模型在执行任务时的效率和准确性。具体而言,性能指标包括F1值(结合精确率和召回率)、首字响应时间、处理效率、并发能力、正确性、完整度、相关度和有效性。例如,F1值通过评估模型对法律文书中错误的识别准确性来计算,其中精确率表示正确识别的错误占所有识别的比例,召回率表示正确识别的错误占所有实际存在错误的比例。第三,安全性评估关注法律大模型在生成内容时是否违反法律法规或道德标准,包括评估模型在处理敏感话题、隐私保护等方面的安全性。安全性指标包括敏感话题、排斥成见、非法竞争、权益侵害、隐私安全、恶意抨击、违法违纪、人身危害、心理危害和负向价值等。评估通过人工标记和分析模型输出内容中的禁止项(如出现严重违禁内容)和问题项(如涉及敏感话题)来进行。安全性指标是定性指标,如果发现安全性存在问题,模型应被否定。第一,审查模型的应用场景和限制条件,通过严格的准入机制确保模型仅用于合适的法律任务。前述分析,法律大语言模型并非适用于所有法律任务,这需要全面评估模型的功能、性能、安全性和质量,并要求开发者提供透明的测试结果和数据来源。司法机关需明确模型的具体应用场景,例如在法律文书生成、法律条文检索、简单法律咨询和案情分析中发挥辅助作用。但在涉及复杂法律推理、价值判断及需要深度法律专业判断力的任务中,模型的应用应受到限制。尤其在处理国家安全、公共秩序和道德伦理的敏感信息时,模型使用必须严格受监管。第二,为防止法律大语言被置于决定性位置,还需要审查法律大语言模型的辅助性地位。司法机关必须确保模型仅用作辅助工具,最终的决策权仍需由法律人掌握。司法机关应明确规定,任何由模型生成的建议或结论必须经过法律专业人员的审查。辅助性地位评估可以通过多方面的措施来实现:分析人机交互记录和决策链,确保司法工作人员在每个决策中都有实际参与和最终确认;明确责任归属,通过责任协议,确保司法工作人员对每项决策负责;评估模型输出的依赖度,统计输出采纳率,并鼓励司法工作人员提供多种方案以验证人类判断的独立性;司法工作人员可以质疑输出结果,在必要时纠正或拒绝不当的建议。第三,法律大语言模型的生成内容需要接受审查,以确保其在法律实践中的准确性和合法性。首先,司法机关通过建立人机协调审查的机制,由使用者对生成内容进行交叉审查,降低个体判断错误的风险。对于复杂或敏感的法律内容,应当组建专家小组进行评审,提供多元化的专业意见。其次,建立标准化测试集,使用涵盖不同法律任务的标准化测试集来评估模型生成内容的准确性。还应当开发自动化测试工具,快速评估生成内容与测试集答案的相符程度,并标记潜在问题。最后,建立持续的性能监控机制和反馈渠道,对大模型的输出进行定期评估,及时纠正反馈的错误,确保其在实际应用中的表现稳定且可靠。法律大语言模型不仅面临大语言模型普遍的数据安全问题,还存在特有的安全性挑战。除了基座大语言模型的训练数据安全问题外,还涉及二次微调过程中的数据安全以及检索增强过程中的法律知识库安全保护问题。在二次微调前,首先需要对法律大数据进行安全审查和评估。法律大数据包括裁判文书、法律法规、案例分析、合同范本和法律问答等多种形式,当中可能包含大量涉及个人隐私的信息,还可能包含敏感的商业秘密、国家机密等信息。根据数据敏感性、法律重要性以及用途,对数据进行分类和分级。例如,将个人隐私数据、敏感法律文件和公开法律信息分为不同级别,制定相应的保护措施。司法机关还可以引入法律和数据安全专家,对数据处理方案进行审核,评估数据处理可能带来的风险,特别是对数据主体权利和数据安全的影响。此外,还需要对数据源进行验证,确保用于训练和使用的数据的准确性、合法性和完整性,防止不准确或有害的数据进入系统。在模型训练和部署中,需要对训练数据进行严格保护,防范数据安全风险。首先,采用数据加密和匿名化技术,确保训练数据的安全性。对于涉及个人隐私、商业秘密和国家机密的信息,使用高级加密技术保护,并通过数据匿名化减少隐私泄露的风险。同时确保模型符合法律领域的特定规范要求,防止数据滥用。其次,为确保安全部署和维护,需要将模型部署在具备法律行业安全标准的受保护服务器上,使用防火墙和入侵检测系统防止恶意攻击,同时定期更新和维护模型以修复任何已发现的漏洞。最后,建立数据主体权利保障机制,确保数据主体能够行使其数据访问、数据更正和数据删除等权利。提供法律大数据的司法机关自身可以作为数据主体,需确保数据的规范使用和权利保障,特别是在法律数据的收集、使用和共享方面严格遵循相关法律法规。在模型的检索增强过程中,需要专门保护法律知识库。法律知识库通常以结构化的方式存储信息,包括裁判文书、案例分析、法律条文等,并按类别、主题、时间进行分类存储,以便模型能够快速、准确地检索所需信息。由于法律知识库的构建涉及大量原创性贡献,包括信息的收集、整理、验证和展示,保护其知识产权对于防止未经授权的复制和使用以及保护创作者的合法权益至关重要。为此,法律知识库的保护需要建立基于角色的访问控制系统,为不同用户设置不同的访问权限,确保只有授权用户才能访问和修改特定部分的知识库。此外,知识库中应附加明确的版权声明和使用协议,以规定信息的使用范围和条件。为了防止未经授权的复制和分发,还可以对知识库中的关键内容应用数字水印,从而识别和追溯信息的来源。大语言模型有所能,亦有所不能。法律大语言模型无疑是法律人工智能研究的最前沿技术,它在法律语言理解、法律知识问答、法律预测以及法律文本生成等领域表现出了卓越的能力,标志着法律人工智能研究进入了全新时代。然而,也应清醒地认识到,法律大语言模型在处理法律逻辑推理、司法证明、法律解释、法律论证以及司法自由裁量等法律任务时存在明显的局限性,尤其是在处理需要法律职业经验和复杂道德判断的疑难案件时。大语言模型不具备法律人的直觉和经验,无法像法律人一样灵活地使用法律方法。这些局限不仅体现了技术层面的挑战,更凸显了人工智能在理解法律人的道德、伦理、经验和情感等方面的困境。法律大语言模型的能力还需要精准的测评,未来需要研究大语言模型的科学测评方法,从功能、性能、安全和质量等方面进行测评,推动大语言模型的研发、评测和应用的规范化。但无论大语言模型发展到何种阶段,它在现有的计算范式下都无法达到“人类理性”的高度。“‘人类理性’包含亚里士多德式的审慎和智慧。这些能力不是算法性的,因此计算机能力不能、也不应该取代人类理性”。大语言模型应当在其所能的范围内最大限度地发挥它的能力,同时避免走入其所不能的误区。往期精彩回顾
邢会强|证券虚假陈述赔偿的巨额化与有限社会化分散机制
目录|《东方法学》2024年第5期
孙佑海|发展新质生产力专门立法研究
陈兵|论新质生产力的经济法促进——以人形机器人创新发展为例
刘权|人工智能发展和安全并重的法治探究——以人形机器人为例
张涛|迈向试验性规制的人形机器人治理